系统发育树包含大量关于一组病毒之间推断的进化关系的信息。解码这些信息并不总是直接的,需要对一个系统发育的元素和它们所代表的东西有一定的理解。以下是一个例子(虚构的)系统发育,它可能出现在期刊文章中:

树包含什么信息?

我们可以从图形的尺寸开始。在这张图中,水平维度给出了遗传变化的数量。水平线是分支,代表进化谱系随时间的变化。水平维度上分支越长,变化量越大。图底部的条形图提供了一个刻度。在本例中,数字为“0.07”的线段显示的是代表0.07遗传变化量的分支长度。分支长度的单位通常是每个位点的核苷酸替换数——即变化的数量或“替换”除以序列的长度(虽然也可以用变化百分比表示,即每100个核苷酸位点的变化数)。图中的垂直维度没有任何意义,只是用来直观地布局树,使标签垂直地均匀间隔。因此,垂直线只是告诉你水平线与水平线之间的连接,它们的长度无关紧要。

接下来,我们将考虑树结构本身。这可以分解为节点(在上面的树中表示为圆)和分支(连接它们的线)。节点有两种类型;外部节点,也被称为“梢”或“叶”(到目前为止你只能用树的比喻,我更喜欢用“梢”这个词),以及内部节点。这里的提示用绿色圆圈表示这些代表实际的病毒采样和测序。这些是我们的数据,我们通常知道关于这些数据的信息,除了实际的序列,比如它们是什么时候收集的,宿主是什么,宿主是在哪里发现的,疾病的临床特征。

内部节点由蓝色圆圈表示,这些代表样本病毒的推定祖先。在此上下文中,祖先指的是过去某个时间受感染的宿主,该主机又感染了2个或更多的新宿主,产生导致采样病毒的感染链。这些分支就代表了感染链。这棵树是有根的,这表明我们知道所有样本病毒的最终共同祖先在哪里(红圈)。知道了这一点,树就有了水平维度上分支事件的顺序:祖先“A”先于祖先“B”和“C”存在,时间大致从左向右流动。我说“大约”是因为在这棵树中,横轴被测量为基因变化,为了将其转化为实际时间,我们需要对基因变化和时间之间的关系做一些假设。这些假设被称为“分子时钟”。

每个节点旁边的红色数字表示对该节点的支持程度。这些通常是0到1之间的数字(但也可以用百分比表示),其中1表示最大支持度。这些数据可以通过一系列统计方法计算,包括“自举”和“贝叶斯后验概率”。使用什么技术的细节将在图图例中。较高的值意味着有很强的证据表明,节点集群右侧的序列聚集在一起,排除了其他任何序列。

树有时也有其他的画法。这两个图都是上面相同的底层树的表示:

树A是极形的(通常称为圆树)。这基本上和上面的树是一样的,只是在极坐标下。垂直的尺寸现在是圆的角度,水平的尺寸是到中心点的距离。这些树格式在论文中经常被用来产生很大的视觉冲击,但通常降低了可读性——很难比较节点离中心有多远。最好避免。树B是径向格式树。这通常在树的根不知道的情况下使用(尽管我已经用红圈标出了树的根在上面的等价位置)。这种格式倾向于将密切相关的序列聚集在一起,使它们的精确关系难以看到。通常最好避免。

树的根

我上面提到过,如果我们知道树的根,那么它就提供了关于树中节点顺序的信息。如果我们不知道怎么办?我们怎么知道根结点在哪里?许多从基因序列重建系统发育的方法都不能明确估计树的根。当生成树时,它通常有一个任意的根。例如,这是上面的树,扎根在任意的地方:

这与上面的树完全相同。我已经用红圈标出了之前的生根位置。需要注意的是,内部节点(蓝色圆圈)从左到右的顺序不再可以被解释为共同祖先的顺序。任意扎根的人物应该在传说中提到这一点,但他们经常没有。

我们怎么知道根结点在哪里?

有两种方法可以找到系统发育树的根。第一种方法是在数据集中包含一个或多个已知位于感兴趣序列多样性之外的序列。这些序列通常被称为“外群”。例如,在上面的树中,标记为“virus9”和“virus10”的一对提示可能是外群,允许我们在红圈处查找树的根。我们怎么知道外群就是外群?有可能外群有显著的基因组差异,表明它们是不同的病毒群。然而,这也可能意味着外群病毒与我们感兴趣的病毒非常不同。如果外群与感兴趣的序列相差太大,那么根位置就不可靠。或者也可以假设一个或多个序列是外群,因为它们是最发散的(上面的病毒9和病毒10可能是这样的一个例子)。

第二种方法是使用一种隐含假设时间尺度的方法——分子时钟模型——如下所述。

重建流行病学

这是与上面相同的树,但顶端根据它们分离的宿主类型标记:

你马上就能看到病毒按宿主分组的结构。例如,这两种来自人类的病毒彼此的共同祖先比它们与任何其他病毒的共同祖先更接近。乍一看,人类病毒与蝙蝠病毒的关系似乎比骆驼病毒更密切,因为它们彼此相邻,但请记住,垂直维度是没有意义的。事实上,病毒可以在任何内部节点上交换,树是相同的: 事实上,人类病毒和骆驼病毒彼此之间的关系更密切,与蝙蝠病毒的关系也同样密切。这意味着我们不能从这棵树上判断骆驼是人类病毒的来源还是相反,或者同样可能的是,蝙蝠是人类和骆驼疫情的独立来源。然而,我们可以认为蝙蝠是骆驼和人类病毒的最终来源,因为蝙蝠病毒的多样性要大得多。从另一个角度来看,人类病毒和骆驼病毒的共同祖先存在于所有蝙蝠病毒的多样性中。

在该树中,基于简约原则,内部节点被标记为重构的宿主物种。这种重建过程只需要宿主物种之间最少的跳跃。灰色节点是那些不能明确重建的节点。例如,人类病毒和骆驼病毒的共同祖先可能同样存在于人类、蝙蝠或骆驼身上,这三种可能性只需要2次宿主跳转: 区分这三种可能性通常需要更多的数据,也许需要更密集的病毒样本。

参考资料: